Clusterisation du Web en vue d'extraction de corpus homogènes

نویسندگان

  • Camille Prime-Claverie
  • Michel Beigbeder
  • Thierry Lafouge
چکیده

Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. Cependant, les outils de recherche ne prennent pas en compte cette hétérogénéité et ne proposent qu’un accès par mots-clés aux documents du web. Cet article présente une méthode basée sur les hyperliens, permettant d’extraire du graphe Web des sous-corpus de documents homogènes. L’expérience décrite ici utilise la méthode des cocitations et s’intéresse plus spécialement à la notion de genre (type) de document web.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Prise en compte des "points de vue" pour l'annotation d'un processus d'extraction de connaissances à partir de données

Résumé. Dans cet article on propose une nouvelle approche qui rend explicite la notion de point de vue dans une analyse multivues issue d’un processus d’Extraction de Connaissances à partir de Données (ECD). Par point de vue, nous entendons la vision particulière d’un analyste lors de son processus ECD, vision référant à un corps de connaissances qui lui est spécifique. On cherche, d’une part, ...

متن کامل

Méthodologie de sélection de caractéristiques pour la classification d'images satellitaires

Résumé : Choisir les descripteurs d’une image en vue de son indexation n’est pas aisé, du fait de la variété des choix présentés dans la littérature. Nous développons à cet effet une méthodologie permettant de comparer différents ensembles de caractéristiques extraits d’une même base d’images. Cette méthodologie repose sur des algorithmes supervisés et non supervisés de sélection de caractérist...

متن کامل

A Methodology for semi-automatic structuring of a bilingual lexicographical corpus: the French-Kabyle case (Méthodologie pour la structuration semi-automatique du corpus dans une perspective de traitement automatique des langues : le cas du dictionnaire français-kabyle) [in French]

Résumé L’objectif de cette contribution est de proposer une méthodologie nouvelle de structuration de corpus à l’aide d’outils informatiques récents permettant aux linguistes non-spécialistes en informatique de constituer des corpus structurés en vue de leur exploration par des outils de traitement automatique des langues naturelles. Il s’agit, plus exactement, de présenter le processus d’infor...

متن کامل

Notes de lecture

Cet ouvrage de François Rastier présente une vue articulée de différents domaines de la linguistique – y compris le traitement automatique du langage – auxquels l’auteur a contribué. Par ses travaux antérieurs, la linguistique de corpus est l’angle d’attaque permettant des propositions, aussi bien épistémologiques qu’applicatives. François Rastier présente des cas concrets de méthodes applicati...

متن کامل

Déploiement coopératif d'un dictionnaire électronique de données administratives

RÉSUMÉ. L’interprétation de l’information administrative est un processus complexe : en effet, la signification des concepts représentés est empirique et évolutive. Les incidences sociales de ce processus sont toutefois cruciales : ainsi, les montants traités via les bases de données de la sécurité sociale belge s’élèvent annuellement à environ 35 milliards d’euros. Cet article propose un ensem...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2002